通过将搜索任务框架作为解释跨度检测来绘制语义搜索问题,即给定文本作为查询短语的段,任务是在给定文档中识别其释放,与通常相同的建模设置用于提取问题的回答。在Turku释放语料库中的100,000手动提取芬兰语释义对,包括其原始文档上下文,我们发现我们的扫描跨度检测模型分别优于31.9pp和22.4pp的两个强烈的检索基线(词汇相似性和BERT句子嵌入)。匹配,达到22.3pp和12.9pp的令牌级F分数。这展示了在跨度检索而不是句子相似性方面建模任务的强大优点。此外,我们介绍了一种通过背部翻译创建人工释义数据的方法,适用于手动注释用于训练的跨度检测模型的剖析资源。
translated by 谷歌翻译